Sélection des variables informatives pour l'apprentissage supervisé multi-tables
نویسندگان
چکیده
Résumé. Dans la fouille de données multi-tables, les données sont représentées sous un format relationnel dans lequel les individus de la table cible sont potentiellement associés à plusieurs enregistrements dans des tables secondaires en relation un-à-plusieurs. La plupart des approches existantes opèrent en transformant la représentation multi-tables, notamment par mise à plat. Par conséquent, on perd la représentation initiale naturellement compacte mais également on risque d’introduire des biais statistiques. Notre approche a pour objectif d’évaluer l’informativité des variables explicatives originelles par rapport à la variable cible dans le contexte des relations un-à-plusieurs. Elle consiste à résumer l’information contenue dans chaque variable par un tuple d’attributs représentant les effectifs des modalités de celle-ci. Des modèles en grilles multivariées sont alors employés pour qualifier l’information apportée conjointement par les nouveaux attributs, ce qui revient à une estimation de densité conditionnelle de la variable cible connaissant la variable explicative en relation un-à-plusieurs. Les premières expérimentations sur des bases de données artificielles et réelles montrent qu’on arrive à identifier les variables explicatives potentiellement pertinentes sur tout le domaine relationnel.
منابع مشابه
Khiops: outil d'apprentissage supervisé automatique pour la fouille de grandes bases de données multi-tables
Résumé. Khiops est un outil d’apprentissage supervisé automatique pour la fouille de grandes bases de données multi-tables. L’importance prédictive des variables est évaluée au moyen de modèles de discrétisation dans le cas numérique et de groupement de valeurs dans le cas catégoriel. Dans le cas d’une base multi-tables, par exemple des clients avec leurs achats, une table d’analyse individus ×...
متن کاملUn Critère d'Évaluation pour la Construction de Variables à base d'Itemsets pour l'Apprentissage Supervisé Multi-Tables
Résumé. Dans le contexte de la fouille de données multi-tables, les données sont représentées sous un format relationnel dans lequel les individus de la table cible sont potentiellement liés à plusieurs enregistrements dans des tables secondaires en relation un-à-plusieurs. Dans cet article, nous proposons un Framework basé sur des itemsets pour la construction de variables à partir des tables ...
متن کاملUne approche filtre pour la sélection de variables en apprentissage non supervisé
Résumé. La Sélection de Variable (SV) constitue une technique efficace pour réduire la dimension des espaces d’apprentissage et s’avère être une méthode essentielle pour le pré-traitement de données afin de supprimer les variables bruitées et/ou inutiles. Peu de méthodes de SV ont été proposées dans le cadre de l’apprentissage non supervisé, et, la plupart d’entre elles, sont des méthodes dites...
متن کاملSélection de variables non supervisée sous contraintes hiérarchiques
Résumé. La sélection des variables a un rôle très important dans la fouille de données lorsqu’un grand nombre de variables est disponible. Ainsi, certaines variables peuvent être peu significatives, corrélées ou non pertinentes. Une méthode de sélection a pour objectif de mesurer la pertinence d’un ensemble utilisant principalement un critère d’évaluation. Nous présentons dans cet article un cr...
متن کاملKhiops : outil de préparation et modélisation des données pour la fouille des grandes bases de données
Résumé. Khiops est un outil de préparation des données et de modélisation pour l’apprentissage supervisé et non supervisé. L’outil permet d’évaluer de façon non paramétrique la corrélation entre tous types de variables dans le cas non supervisé et l’importance prédictive des variables et paires de variables dans le cas de la classification supervisée. Ces évaluations sont effectuées au moyen de...
متن کامل